muon

估值840亿AI实验室再放大招，他们要给大模型戴上「紧箍咒」

在大模型训练时，如何管理权重、避免数值爆炸与丢失？Thinking Machines Lab 的新研究「模块流形」提出了一种新范式，它将传统「救火式」的数值修正，转变为「预防式」的约束优化，为更好地训练大模型提供了全新思路。

随着模型规模迅速扩大，预训练已成为计算密集型任务的典型代表，在大模型研发中往往是最主要的计算开销。在这种背景下，优化器的设计直接关系到收敛速度与计算成本。